FSDP2 训练和推理后端配置指南
FSDP2 (Fully Sharded Data Parallel 2) 是 PyTorch 最新的分布式训练框架,提供高效的参数分片和 DTensor 支持。本文档将详细介绍如何在 ROLL 框架中配置和使用 FSDP2 后端。
FSDP2 与 ROLL
ROLL 支持以下 FSDP2 特性:
- FSDP2 分片:使用 FSDP2 fully_shard 分片模型参数、梯度和优化器状态。同时支持使用 DCP 进行检查点管理。
- 上下文并行:支持与序列并行(Ulysses)集成
- 模型支持:支持文本模型、视觉语言(VL)模型和 MoE(混合专家)模型。